Apprentissage par Renforcement Inverse pour la Simulation d’Utilisateurs dans les Systèmes de Dialogue
نویسندگان
چکیده
Résumé : Les systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d’interaction. La simulation d’utilisateurs a pour objectif de simuler le comportement d’un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux, bien que nécessaire à l’utilisation de méthodes d’apprentissage artificiel (tel l’apprentissage par renforcement qui peut être utilisé pour apprendre la politique du gestionnaire de dialogues). Les simulateurs d’utilisateurs existants cherchent essentiellement à produire des comportements d’utilisateurs qui soient statistiquement consistants avec le corpus de dialogues. La contribution de cet article est d’utiliser l’apprentissage par renforcement inverse pour bâtir un nouveau simulateur d’utilisateur. Cette nouvelle approche est illustrée par la simulation du comportement d’un modèle d’utilisateur (artificiel) sur un problème à trois attributs pour un système d’information touristiques. Le comportement du nouveau simulateur d’utilisateur est évalué selon plusieurs métriques (de l’interaction au dialogue).
منابع مشابه
Classification structurée pour l'apprentissage par renforcement inverse
Résumé : Cette contribution traite du problème de l’apprentissage par imitation par le biais de l’apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu’un agent artificiel doit essayer de reproduire. L’ARI part du postulat que l’expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du ...
متن کاملApprentissage par démonstrations : vaut-il la peine d’estimer une fonction de récompense?
Résumé : Cet article propose une étude comparative entre l’Apprentissage par Renforcement Inverse (ARI) et l’Apprentissage par Imitation (AI). L’ARI et l’AI sont deux cadres de travail qui utilisent le concept de Processus Décisionnel de Markov (PDM) et dans lesquels nous cherchons à résoudre le problème d’Apprentissage par Démonstrations (AD). L’AD est un problème où un agent appelé apprenti c...
متن کاملFiltrage bayésien de la récompense
Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant, les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail géné...
متن کاملRankMerging: Apprentissage supervisé de classements pour la prédiction de liens dans les grands réseaux sociaux
Résumé. Trouver les liens manquants dans un grand réseau social est une tâche difficile, car ces réseaux sont peu denses, et les liens peuvent correspondre à des environnements structurels variés. Dans cet article, nous décrivons RankMerging, une méthode d’apprentissage supervisé simple pour combiner l’information obtenue par différentes méthodes de classement. Afin d’illustrer son intérêt, nou...
متن کاملApprentissage de connaissances d'adaptation à partir des feedbacks des utilisateurs
Résumé : Dans le cadre des systèmes adaptatifs, notre travail de recherche porte sur l’acquisition des connaissances d’adaptation à partir des traces d’interaction laissées par les utilisateurs. Les traces contiennent, entre autres, les feedbacks, positifs ou négatifs, des utilisateurs par rapport aux actions du système. Notre objectif est de définir des modèles et des outils permettant d’extra...
متن کامل